Enquanto os kernels 1D tratam os dados como um fluxo linear, Consciência de Layout 2D muda o paradigma para o processamento estruturado "ladrilhos". O hardware moderno de GPU otimiza o desempenho agrupando elementos em grades 2D para maximizar a localidade espacial e aproveitar núcleos especializados de tensores.
1. Alémdo Elemento a Elemento
No 1D, cada thread calcula um escalar. Nos kernels 2D do Triton, o programa opera sobre blocos inteiros simultaneamente. Isso generaliza a adição simples de vetores em transformações matriciais complexas, como GEMM.
2. Localidade Espacial
Compreender como elementos vizinhos (horizontais e verticais) são buscados no cache é o salto entre kernels educacionais e prontos para produção. Isso garante que, mesmo com memória transposta ou preenchida, o kernel acesse os dados sem desperdiçar largura de banda.
3. O Caminho para Produção
O domínio de layouts 2D permite particionar dados entre Multiprocessadores de Streaming (SMs) de forma eficiente. Por exemplo, uma cópia de matriz que reconhece largura/altura pode carregar ladrilhos de 16×16 na memória rápida embarcada, respeitando o "passo físico" do tensor.